========================================================
这篇报告旨在研究白葡萄酒的各项性质之间的关系,和性质同评分之间的关系。
为了分析先载入了各种分析工具包,设置全局变量,然后载入数据。
我查看了这个数据集的格式、列名和结构等。
## [1] 4898 13
## 'data.frame': 4898 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## X fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 1 7.0 0.27 0.36 20.7 0.045
## 2 2 6.3 0.30 0.34 1.6 0.049
## 3 3 8.1 0.28 0.40 6.9 0.050
## 4 4 7.2 0.23 0.32 8.5 0.058
## 5 5 7.2 0.23 0.32 8.5 0.058
## 6 6 8.1 0.28 0.40 6.9 0.050
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol
## 1 45 170 1.0010 3.00 0.45 8.8
## 2 14 132 0.9940 3.30 0.49 9.5
## 3 30 97 0.9951 3.26 0.44 10.1
## 4 47 186 0.9956 3.19 0.40 9.9
## 5 47 186 0.9956 3.19 0.40 9.9
## 6 30 97 0.9951 3.26 0.44 10.1
## quality
## 1 6
## 2 6
## 3 6
## 4 6
## 5 6
## 6 6
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 1st Qu.:1225 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## Median :2450 Median : 6.800 Median :0.2600 Median :0.3200
## Mean :2450 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 3rd Qu.:3674 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## Max. :4898 Max. :14.200 Max. :1.1000 Max. :1.6600
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
## alcohol quality
## Min. : 8.00 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.40 Median :6.000
## Mean :10.51 Mean :5.878
## 3rd Qu.:11.40 3rd Qu.:6.000
## Max. :14.20 Max. :9.000
本数据集包括13个变量,其中X是样本序号,一共有4898个观察值。
白葡萄酒的评分范围为0-10分,而样本中最低分为3分,最高分9分,中位数为6分,平均数5.878,平均得分更接近6分。
除了柠檬酸最小值为0以外,其他数据的最小值都大于0。
维基百科中查得残糖(甜度)在0-4g/L为干型白葡萄酒,4-12g/L为半干型白葡萄酒,12-45g/L为半甜型白葡萄酒,大于45g/L为甜型白葡萄酒。同时,数据集的属性说明中也提出了,当酒的残糖在45g/L以上时,被认为是甜型酒。而数据中的残糖的第三分位数为9.9(单位:g/L),说明数据集中大部分酒残糖量都比较低,属于干型或半干型白葡萄酒。而最大值为65.8,说明个别样本的残糖量很高,为甜型酒。
查看残糖量大于45的样本数量:
##
## FALSE TRUE
## 4897 1
可以看出甜度大于45的样本只有1个。
在数据中,quality(品质得分)的属性为int(整型),为了后面便于分析,我将其转换为factor格式。同时,保留原有的int格式。
## Ord.factor w/ 7 levels "3"<"4"<"5"<"6"<..: 4 4 4 4 4 4 4 4 4 4 ...
由于X列是行号,而表格中已经有自动生成的行号了,这一列删除后对数据没有影响,因此后面分析时将这一列删掉。
## fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 7.0 0.27 0.36 20.7 0.045
## 2 6.3 0.30 0.34 1.6 0.049
## 3 8.1 0.28 0.40 6.9 0.050
## 4 7.2 0.23 0.32 8.5 0.058
## 5 7.2 0.23 0.32 8.5 0.058
## 6 8.1 0.28 0.40 6.9 0.050
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol
## 1 45 170 1.0010 3.00 0.45 8.8
## 2 14 132 0.9940 3.30 0.49 9.5
## 3 30 97 0.9951 3.26 0.44 10.1
## 4 47 186 0.9956 3.19 0.40 9.9
## 5 47 186 0.9956 3.19 0.40 9.9
## 6 30 97 0.9951 3.26 0.44 10.1
## quality quality_int
## 1 6 6
## 2 6 6
## 3 6 6
## 4 6 6
## 5 6 6
## 6 6 6
下面对每项变量进行初步分析,并且先设置全局的图像主题:
观察上图可以看到,大部分白葡萄酒的品质集中在5分到7分,极少部分在3分或9分,分数成正态分布。
下图分析固定酸性物质的分布:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.855 7.300 14.200
固定酸性物质(酒石酸)在酒中的含量呈正态分布,大部分样本的含量在6-8g/L(上分位数为6.3,下分位数为7.3),少部分样本的固定酸少于4或大于9g/L,而最大值14.2远远大于下分位数。
下面分析挥发性酸性物质,并对直方图的柱宽进行调整:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2100 0.2600 0.2782 0.3200 1.1000
挥发性酸性物质(乙酸)在大部分样本中的含量在0.15-0.4g/L之间,同样,挥发性酸性物质的最大值1.1远大于下分位数的0.32。
下面分析柠檬酸变量:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3342 0.3900 1.6600
柠檬酸在大部分样品中的含量是0.2-0.5g/L,在某些酒中含量为0,而最大值为1.66,比第三分位数0.39高很多。
上面的三种酸都属于酸类的,因此我增加了一项酸类来进行观察。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.130 6.890 7.405 7.467 7.960 14.960
上图分析可以看出,酸类的分布属于正态分布,在浓度为7-8之间达到峰值。
下面分析残糖变量:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
上图可以看到数据集中的糖类含量大部分在0-20g/L,少部分值较大,数据有“长尾”,为更好分析,将其进行x轴方向的log转换。
转换后的数据有两个峰值,后面对残糖进行log转换更容易进行分析。
下图对氯化物变量进行分析:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
上图显示氯化物(盐)在大部分样品中的含量是0.03-0.06g/L。
由于数据是长尾数据,进行log转换后:
转换后的数据有一个明显的峰值,和不太明显的小峰值,但是总体上看还是属于正态分布。
分析游离态二氧化硫变量分布:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
样本中大部分白葡萄酒的游离态二氧化硫分布在10-60mg/L,只有极少分布在290左右,下面的四分位箱型图可以更好观测葡萄酒游离态二氧化硫和品质的关系。
下图分析总二氧化硫变量分布:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 108.0 134.0 138.4 167.0 440.0
样本中大部分白葡萄酒的总二氧化硫分布在70-200mg/L,只有极少分布在300以上。下面的四分位箱型图可以更好观测葡萄酒总二氧化硫和品质的关系。
由于总二氧化硫包括游离态和结合态二氧化硫,数据集中有游离二氧化硫和总二氧化硫,因此我通过简单的计算得出结合二氧化硫的数据。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.0 78.0 100.0 103.1 125.0 331.0
大部分结合二氧化硫含量集中在50-150g/L,极小部分大于200,分布呈正态分布。
以下分析密度这变量:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
大部分白葡萄酒样品的密度在0.5-0.9g/mL 之间,分布非常集中,只有部分离群数据较大。
下面分析pH值变量的分布:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.720 3.090 3.180 3.188 3.280 3.820
白葡萄酒的pH值为酸性,大部分的值在3-3.5之间,呈正态分布。
分析硫酸盐变量的分布:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.4100 0.4700 0.4898 0.5500 1.0800
大部分白葡萄酒样品的硫酸盐含量在0.3-0.6g/mL 之间。
以下分析酒精变量的分布:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
样品白葡萄酒的酒精度数主要集中在8.5-13度,峰值偏左,说明小于平均值的样本数更多。
数据集里有4898个样本,有12个观测变量(除去变量X),主要分为葡萄酒的物理性质(密度)、化学性质(酸性物质、残糖量、含盐量、二氧化硫、酸碱度、硫酸盐、酒精度)和专家评分三个维度。其中,化学性质可以影响葡萄酒的风味,而物理性质密度可能跟化学性质相关,有待后续分析。
白葡萄酒的衡量标准为专家评分。评分由0分到10分,在这个数据集中,最低得分为3分,最高得分为9分。
其他观察结果:
样本白葡萄酒的物质含量和评分多为正态分布,即大部分集中在中段,少部分分布在两侧。
大部分白葡萄酒的评分在5到7分之间。品质得分的上四分位数7.3,中位数为6.8,下四分位数为6.3。
我最感兴趣的部分是各项物质对白葡萄酒品质的影响,比如残糖量和含盐量对酒的影响,酸度对酒品质的影响。
这些数据可能判断出专家对白葡萄酒的偏好,对白葡萄酒生产商对酒品质的改进方面提供思路,以生产出更受欢迎的白葡萄酒。
酸类、糖、盐的含量、二氧化硫含量、酒精度、酸碱度可能与评分相关。
将三种酸:固定酸、柠檬酸和挥发性酸相结合,总结为酸类,进行后续分析。
由于数据集中有总二氧化硫和游离二氧化硫两项,我根据描述文件(总二氧化硫包括游离态和结合态)增加了一项结合二氧化硫。
为了更方便分析品质得分,我将其由int格式改为factor格式,并对其进行排序。
由于品质得分为整型数据,是连续而非离散型数据,我为了更好的分析而将其改为factor格式的数据,并进行了排序。
残糖和氯化物变量分布有“长尾”,我将其进行log转换后再进行分析。
首先,我用cor()对每个变量之间进行相关性分析,以确定变量之间的相关性强弱。由于cor()只能分析数值数据,我用select_if选择数值列。
## fixed.acidity volatile.acidity citric.acid
## fixed.acidity 1.00000000 -0.02269729 0.289180698
## volatile.acidity -0.02269729 1.00000000 -0.149471811
## citric.acid 0.28918070 -0.14947181 1.000000000
## residual.sugar 0.08902070 0.06428606 0.094211624
## chlorides 0.02308564 0.07051157 0.114364448
## free.sulfur.dioxide -0.04939586 -0.09701194 0.094077221
## total.sulfur.dioxide 0.09106976 0.08926050 0.121130798
## density 0.26533101 0.02711385 0.149502571
## pH -0.42585829 -0.03191537 -0.163748211
## sulphates -0.01714299 -0.03572815 0.062330940
## alcohol -0.12088112 0.06771794 -0.075728730
## quality_int -0.11366283 -0.19472297 -0.009209091
## acid 0.98717874 0.07157062 0.394143356
## bound.sulfur.dioxide 0.13566071 0.15676923 0.102179337
## residual.sugar chlorides free.sulfur.dioxide
## fixed.acidity 0.08902070 0.02308564 -0.0493958591
## volatile.acidity 0.06428606 0.07051157 -0.0970119393
## citric.acid 0.09421162 0.11436445 0.0940772210
## residual.sugar 1.00000000 0.08868454 0.2990983537
## chlorides 0.08868454 1.00000000 0.1013923521
## free.sulfur.dioxide 0.29909835 0.10139235 1.0000000000
## total.sulfur.dioxide 0.40143931 0.19891030 0.6155009650
## density 0.83896645 0.25721132 0.2942104109
## pH -0.19413345 -0.09043946 -0.0006177961
## sulphates -0.02666437 0.01676288 0.0592172458
## alcohol -0.45063122 -0.36018871 -0.2501039415
## quality_int -0.09757683 -0.20993441 0.0081580671
## acid 0.10473749 0.04552987 -0.0451333172
## bound.sulfur.dioxide 0.34484449 0.19379550 0.2635372837
## total.sulfur.dioxide density pH
## fixed.acidity 0.091069756 0.26533101 -0.4258582910
## volatile.acidity 0.089260504 0.02711385 -0.0319153683
## citric.acid 0.121130798 0.14950257 -0.1637482114
## residual.sugar 0.401439311 0.83896645 -0.1941334540
## chlorides 0.198910300 0.25721132 -0.0904394560
## free.sulfur.dioxide 0.615500965 0.29421041 -0.0006177961
## total.sulfur.dioxide 1.000000000 0.52988132 0.0023209718
## density 0.529881324 1.00000000 -0.0935914935
## pH 0.002320972 -0.09359149 1.0000000000
## sulphates 0.134562367 0.07449315 0.1559514973
## alcohol -0.448892102 -0.78013762 0.1214320987
## quality_int -0.174737218 -0.30712331 0.0994272457
## acid 0.113188502 0.27560881 -0.4306513315
## bound.sulfur.dioxide 0.922482350 0.50444690 0.0031433874
## sulphates alcohol quality_int acid
## fixed.acidity -0.01714299 -0.12088112 -0.113662831 0.98717874
## volatile.acidity -0.03572815 0.06771794 -0.194722969 0.07157062
## citric.acid 0.06233094 -0.07572873 -0.009209091 0.39414336
## residual.sugar -0.02666437 -0.45063122 -0.097576829 0.10473749
## chlorides 0.01676288 -0.36018871 -0.209934411 0.04552987
## free.sulfur.dioxide 0.05921725 -0.25010394 0.008158067 -0.04513332
## total.sulfur.dioxide 0.13456237 -0.44889210 -0.174737218 0.11318850
## density 0.07449315 -0.78013762 -0.307123313 0.27560881
## pH 0.15595150 0.12143210 0.099427246 -0.43065133
## sulphates 1.00000000 -0.01743277 0.053677877 -0.01185225
## alcohol -0.01743277 1.00000000 0.435574715 -0.11751272
## quality_int 0.05367788 0.43557472 1.000000000 -0.13137721
## acid -0.01185225 -0.11751272 -0.131377207 1.00000000
## bound.sulfur.dioxide 0.13569394 -0.42692304 -0.217867760 0.16064538
## bound.sulfur.dioxide
## fixed.acidity 0.135660713
## volatile.acidity 0.156769227
## citric.acid 0.102179337
## residual.sugar 0.344844495
## chlorides 0.193795498
## free.sulfur.dioxide 0.263537284
## total.sulfur.dioxide 0.922482350
## density 0.504446902
## pH 0.003143387
## sulphates 0.135693943
## alcohol -0.426923036
## quality_int -0.217867760
## acid 0.160645384
## bound.sulfur.dioxide 1.000000000
由上图和图表可以看到,和品质得分quality关系最强的是:
其中,酒精度数与品质得分为中等强度关系,其余三个为弱强度关系。
将这四项分别与品质得分结合创建箱型图:
观察上面四张图,可以进行一些调整:
上图可以看出,酒精度、密度、氯化物、结合二氧化硫与得分呈现一定的相关性,其中相关性最强的是酒精度和得分。观察酒精度集中的部分,随着得分由3分到9分上升,酒精度数有先减小后增加的趋势。而随着得分的上升,密度有先升高后下降趋势。可以解释为,酒精密度比水的密度大,因此,酒精度数越高,密度越小。
此外,氯化物(盐)和结合二氧化硫都可以观察到下降趋势,即随着得分的升高,酒中这种物质的含量逐渐下降。在氯化物图中,当氯化物含量大于0.08,评分大多为4-6分,因此,二者之间有较弱的相关性。
下图为每个分数段内酒精度数个数的直方图:
类似的,趋势图将直方图中的峰值显示出来。
上面的直方图和趋势图中,每一个得分档的酒精度峰值都不同,但有很明显的趋势,随着得分的上升,峰值也逐渐右移增大。为了看得更仔细一点,我将其分为七个小图来观察。
如上图,可以看到当评分低于5分时,酒精度数越低评分越高,随着得分的升高,高于5分时,酒精度直方图的峰值是逐渐右移的,酒精度数越高评分越高。我又拟合了一条曲线,这条曲线也显示出酒精度和得分之间有比较明显的正相关性。
虽然酒精度和品质得分拟合的线条是斜向上的,但是看散点图中的线性关系不算特别明显。
下图再看密度和评分的关系。
类似的,趋势图将直方图中的峰值显示出来。
上图可以看出,随着得分的上升,密度的峰值是逐渐向左偏移的,是一个不太明显的趋势,显示密度和评分的负相关性。为了观察得更仔细,将其分为7个小图。
可以观察出密度和得分的关系,类似酒精度与得分的关系但与之相反,当评分小于5分,密度是随着得分升高而不断增加,当评分大于5分,密度随着得分升高而不断下降。
拟合出趋势线后发现,总体趋势是密度越小,酒的评分越高。
其他相关性中,比较高的有:
总二氧化硫分别与四个项有较高相关性。我将这组数据做成散点图如下:
上图可以看出总二氧化硫和其他项的相关性的强弱,点越集中线性相关性越强,越分散相关性越弱,关系最弱的是和酒精度的,最强的是和结合二氧化硫的,因为结合二氧化硫和总二氧化硫本来就是包含于的关系。
下图可以看出残糖、酒精度、密度三者的相关性。
可以看出三者之间有较强的相关性。
其中,酒精度较高的酒中,大部分残糖量都较低。这是因为酿酒的过程中,葡萄里的糖转化为了酒精,转化的酒精越多,残糖就越少。
而糖溶于水后的液体密度相对水更大,因此,糖分越多酒的密度越大。
由于酒精的密度低于水,酒精含量越大,酒的密度越小,可以看到酒精含量和密度呈线性关系。
整体趋势是酸性物质含量越高,pH值越低。这也符合pH值的基本定义,即酸性越强pH值越小。
观察数据集中不同变量之间的相关性,我得到了一些强相关的变量,和相关性较弱的变量关系。其中,我最关注的是品质得分的变量,它与四个变量有较强的关系:酒精度、密度、氯化物、结合二氧化硫。品质得分与酒精度和密度的关系都较强,当评分在3-5分时,随着评分升高,酒精度下降,而当评分大于5分,随着评分度的升高,酒精度逐渐升高。
另外,酒精度数与密度有很强的相关性。酒精度数越高的葡萄酒中酒精含量就越高,而酒精的密度比水小,因此酒精度越高的葡萄酒密度越小。
残糖、密度和酒精度三者之间有相关性,由于葡萄酒中的酒精是来自酿酒前葡萄中的糖份,酿酒过程中一部分糖类转化为酒精,剩余的部分就叫残糖,因此,当最初的糖分一定时,葡萄酒中的酒精度越高,残糖就越少。而又由于糖的密度大于水,而水的密度又大于酒精。因此,酒精度越高,残糖越少的酒的密度就越小,反之也成立。
在白葡萄酒中,酸的总含量和固定酸的含量成高相关性,是因为我用固定酸、挥发性酸和柠檬酸相加得到的酸含量,而固定酸占酒中酸的比重最大,是符合逻辑的。除此之外,密度和糖含量的关系最大,呈正相关,与客观事实相符。
酒精度、密度与评分之间有较强的相关性,下图以三者为变量做成散点图:
这一结果和之前的分析相同,能够看出酒精度高的酒中得分高的比例更大,而低度酒颜色偏绿,更大比例得较低分,高度酒颜色偏蓝,更大比例得较高分。同时密度与酒精度的趋势明显,相互之间呈反比。
残糖、密度与评分之间也有较强的相关性,下图以三者为变量做成散点图:
上图可以看出,残糖量高的酒密度也就越大,这是由于糖水的密度大于水的密度。同时,密度大的酒的颜色更偏向浅粉色,而密度低的酒紫红色更多,这个趋势比较明显,而紫红色这些代表评分高的颜色多集中在左下角,说明残糖量越低的酒评分越高,因此可以说专家偏向残糖量较低的酒。为了观察这个趋势,我用酒精度代替密度再进行观察。
残糖、酒精度与得分之间的关系如下图:
上图能够看出酒精含量越高的酒评分越高,评分高的深绿色点大多集中在左上方,说明大部分评分高的酒残糖量较低,酒精度数较高。同时,残糖量高的酒相对的酒精度数就比较低。
为了分析残糖、酒精度、密度三者的关系,将残糖按照四分位数分为四份,进行分析。
图中可以看到残糖量越高酒的密度越大,同时,酒精度数越高密度越小,而残糖量小的比例也更大。这可能是由于酿酒过程中,原有的糖分转化为酒精,而保留下来的糖分则为残糖,因此,酒精越多的酒含残糖越少。
多变量图中,更明显的可以看出密度、酒精度和残糖量三者之间的相互关系,其中,残糖和酒精度之间可以相互转换,而残糖较多的酒密度就更大。
酒精度可能能够预测酒的评分,即酒精度较高的酒存在得分较高的可能性。然而,有其他因素也会影响酒的得分,虽然单因素对酒评分的影响较低,但多因素可能影响评分,希望我在未来可以分析这些因素对酒评分的影响。
图中显示的是白葡萄酒酒精度与得分的相关关系。由于白葡萄酒得分与其他变量相关性中,最高的就是与酒精度的相关性,有0.436,这使我对其产生兴趣。在散点图中,可以很清晰得看到随着酒精度的升高,葡萄酒评分也在上升,而右边的箱型图可以看出当葡萄酒的得分低于5分时,随着酒精度的下降,得分上升,高于5分时,得分随着酒精度的上升而上升。
这两幅图让我看到,当酒精度在11.5%以下时,酒的得分是偏低的,而当酒精度达到一定高度,得分会上升,并且酒精度越高,得分升的越高。
图中显示的是密度与得分之间的关系,由于一部分样本的密度偏离群体,我用quantile()这个方法除去这些值。
单独的看每个分数段(颜色),可以看到它们都是具有峰值的,而当得分上升,观察的颜色由浅变深,峰值逐渐偏向左侧移动,也就是密度值越来越小,因此,能看出密度随着得分升高而下降的趋势。由于它们之间的关系比较显著,于是我在后面的分析中继续观察了密度、得分与酒精度的关系,发现了有趣的趋势。
这张图反应了白葡萄酒残糖量、酒精度与密度三者之间的关系,为了方便作图,我将残糖量分为四个区段。
随着酒精度上升,密度下降,因为这张图的散点有明显的下降趋势。说明酒精的密度很低,多的酒精能够减小酒的密度。而看散点颜色可以看出,当糖分值是紫色和青色区段时(残糖量高),点落在图中右下角,代表的密度较大,酒精度较低,说明糖的密度较大,能够增加酒的密度,而观察图的左上角,发现紫色和青色点变少,说明高残糖量与低酒精度有较大相关性。
我发现在酿酒过程中,由于酒中的酒精来自于糖类的转化,因此随着酒精度数增高,残糖量不断降低,这个过程与分析结果相符。
分析这个数据集让我学会了如何探索一个数据,由简单的数据分布到分析各类数据之间的关系,也让我学会了如何用R以及各类语言包实现数据的可视化。其中有一些常用的包和方法,比如ggplot包, cut(),quantile()方法等。我学会了做直方图、散点图、趋势图、箱型图等,还学会了如何调整透明度、抖动、离群值过滤、改标签名等等。包括学会了用R语言写markdown文本。
一开始我对数据集的分析比较零散,抓不住主要关系,后来通过研究相关系数,观察得出了数据集中具有强相关性的几组变量,后续才得以展开。由于我对各类图的做法不太熟练,在作业中重新看文档学习作图,对我后面掌握作图方法有很大的帮助。
在这组分析中比较遗憾的是,我没能做出能够预测白葡萄酒评分的模型,不过在后面的学习中,积累更多知识以后,我可能能更轻松的完成模型建设的工作。